Вернуться на предыдущую страницу

Анализ алгоритмов преобразования речииз цифровойформы в частотную

Иванченко Ю. С., Березин Д. Ю., Завадская Т. В.

Источник: VII Международный научный форум, ИУСМКМ-2021 ДонНТУ – 2020, С.463-467

Аннотация

В рассматриваемой статье даётся обоснование выбора алгоритма дискретизации звука для реализации функции распознавания речи. Описаны различные алгоритмы реализации преобразования звуковых данных в частотную форму с подробным описанием и иллюстрацией результатов их работы. Рассмотрены требования и условия для алгоритмов дискретизации, с определением их преимуществ и недостатков. В заключении подведены итоги проведенных исследований с подробным обоснованием факторов вывода, а также подробно изложено объяснение выбора подходящего требованиям алгоритма. Результаты дискретизации звука, в изложенной статье, могут использоваться в направлении распознавания речи.


Введение

Мир современных развлечений многогранен, и музыка не является исключением. Кроме того, она занимает важное место в жизни человека. Каждый человек является поклонником определённого жанра музыки, вследствие этого существует потребность в приложениях по типу “shazam”, используемых для определения названия проигрывающей песни в реальном масштабе времени. Из этого следует, что возрастает спрос на приложения и/или устройства данного типа.

Развитие науки звуковых преобразований по направлению обработки и распознаванию речи началось в середине двадцатого века и предназначалось для использования в военных целях. С середины девяностых годов прошлого столетия начинается использование устройств распознавания речи в медицине для людей с проблемами слуха. После широкого распространения мобильных устройств в социуме появляются приложения обработки звука, отлично воспринимающие речь, с целью упрощения управлением устройствами дискретизации.

Данное исследование заключается в использовании методов сравнения и сопоставления частотных форм сигналов. Чтобы получить частотную форму, необходимо произвести преобразование цифровых данных, представленных дискретными значениями. Полученные результаты можно использовать для реализации функций приложения по распознаванию голоса.

Процесс распознавания речи

Процесс распознавания речи начинается с принятия на микрофон используемого устройства аналогового звукового сигнала, который затем оцифровывается путём дискретизации и квантования. Например, в компьютере это происходит на звуковой карте. Затем, полученный набор преобразованных данных подвергается определённым преобразованиям, с целью получения частотной формы сигнала для сравнения с эталонной формой оригинального сигнала.

  1. Растекание спектра – это периодические скачки на краях сегмента сигнала, продолженного во времени, с определенным неточным значением количества периодов. Устранить погрешность можно за счет использования оконного дискретного преобразования Фурье.
  2. Алиасинг – наложение нескольких сигналов «друга на друга» с разными частотными формами. Чтобы не допустить искажение звука, следует придерживаться закона Найквиста-Шеннона при семплировании звуковых данных.
  3. Низкое качество – плохое качество исходного сигнала влияет напрямую на точность сигнала, полученного на выходе после преобразования в частотную форму.
  4. Джиттер – шумы в преобразованном сигнал, полученные в результате отличия частоты между соседними значениями отсчетов, которые видимы на частотной оси графика звука.

Перейти к анализу преобразований, чтобы объективно выявить наиболее эффективный из них, можно после исключения вышеописанных искажений сигнала и минимизации погрешности каждого. При выборе рассматривались следующие:

Данный перечень преобразований позволяет выбрать наиболее подходящее преобразование, руководствуясь условиями: минимум искажений выходного сигнала и максимальная эффективность при изменении формы звуковых данных.

Исследование ДПФ

Дискретное преобразование предполагает изменение дискретной формы сигнала на частотную, что приводит к периодизации функции числового ряда. Преобразование основывается на спектральной плотности гармоник, состоящей из набора комплексных отсчетов сигнала. Отсчеты представлены комплексными числами, как и спектр - комплексной формой. Также используются преимущества спектральной плотности, которая заключается в наличии комплексных чисел. Таким образом, алгоритм представляет каждое значение в виде произведения отсчетов сигнала на отсчеты гармоник. Спектр хранит информацию о себе в первой половине отсчетов комплексных чисел, а, так как обе части связаны, то другая половина не содержит дополнительных данных по отношению к первой.

Если при выполнении дискретизации крайние боковые отсчеты были ограничены во времени, то существует вероятность появления «растекание спектра», и возникает необходимость в дополнительных вычислительных затратах. Для устранения данного эффекта необходимо применить функции оконного ДПФ.

Исследование оконных функций

Данный алгоритм является усовершенствованием ДПФ. Он заключается в представлении сигналов в виде произведений дискретизированных отсчетов на оконную функцию. Умножение отсчетов происходит путём прохода окна по каждому фрагменту сигнала с определённым шагом, значение которое задано условием ДПФ (рис. 1).

График, иллюстрирующий форму сигнала после применения оконной функции

Рис. 1. График, иллюстрирующий форму сигнала после применения оконной функции


Оконные функции, в отличие от предыдущего способа, решают проблему с искажением звука, но остается проблема ДПФ, связанная с наличием большого количества вычислений, которая приводит к снижению быстродействия работы данного метода.

Исследование быстрого преобразования Фурье

Использование БПФ характеризуется ускорением вычислений для преобразования сигнала или снижением их количества после ДПФ (рис. 2).

График, иллюстрирующий форму сигнала после применения БПФ

Рис. 2. График, иллюстрирующий форму сигнала после применения БПФ


Быстродействие обеспечивается вследствие выполнения операций над наборами отсчетов, разделенных на части [1]. Для максимального увеличения скорости вычислений используется алгоритм быстрого преобразования Фурье с прореживанием по частоте, который предполагает последовательное распределение отсчетов после деления их на части, кратные степени двойки.

Применение алгоритма БПФ с разложением последовательности порядков ДПФ на подпоследовательности [2], позволяет снижать количество вычислений в 5-10 раз от первоначального количества отсчетов. Экономию можно описать формулой для операции умножения [3]:

алгоритм БПФ с разложением последовательности порядков ДПФ на подпоследовательности

где E_m – коэффициент экономии операций умножения;

N - количество операций умножения.

Приведенные формулы иллюстрируют эффективность БПФ. Его использование уменьшает количество умножений в 255 раз, а сложений - в 100 раз. Применение алгоритма на практике позволит значительно сократить расходы без заметного ухудшения качества частотного преобразования звука.

Исследование ДКП

Сущность применения ДКП заключается в использовании только действительной части выражений, состоящих из вещественных чисел (рис.3).

График, иллюстрирующий форму сигнала после ДКП

Рис. 3. График, иллюстрирующий форму сигнала после ДКП


ДКП реализуется умножением квадратной косинусной матрицы на набор исходных отсчетов, которые представлены вектором. Отличие от ДПФ заключается в применении для ДКП только действительных чисел. Учитывая, что в данных числах содержится основная энергия сигнала, косинусное преобразование является более быстродействующим, чем преобразование Фурье. При сравнении с улучшенной версией ДПФ – быстрым преобразованием Фурье - косинусное преобразование можно считать и эффективным, поскольку отсутствует необходимость выполнять дополнительные расчеты по снижению количества операций сложения и умножения.

Исследование унитарных преобразований

Способ реализации УП представляется в виде прямоугольных импульсов сигнала, которые образуются путем умножения входного вектора исходных отсчетов на матрицу, представленную базисными коэффициентами, состоящими из положительных и отрицательных единиц (рис. 4). В данном способе применяются, в основном, операции сложения и вычитания, что сокращает общее время вычислений. Также, в отличие от ДПФ, сигналы являются гармоничными. Данный способ является более экономичным по сравнению с дискретным преобразованием Фурье, так как не требует больших вычислительный мощностей от устройства, на котором происходят вычисления УП [4]. Но, в отличие от ранее описанного алгоритма ДКП, УП формируют преобразования более низкого качества из-за использования в матрице жестко фиксированных базисных коэффициентов при расчетах.

График, иллюстрирующий форму сигнала после применения УП

Рис. 4. График, иллюстрирующий форму сигнала после применения УП


Выводы

Для приложения распознавания речи необходимо подобрать алгоритм преобразования звуковой речи в частотную форму, чтобы определить границы сигнала. Кроме того, преобразованный сигнал должен сохранить всю энергию и качество звучания от исходного. Также применение алгоритма должно быть быстродействующим и не иметь существенных затрат вычислительных мощностей устройства.

В ходе исследования рассматривались методы: ДПФ, оконные функции ДПФ, БПФ, ДКП, а также унитарные преобразования. Анализ каждого метода показал преимущества и недостатки используемого в нем способа дискретизации, вследствие чего дискретное косинусное преобразование оказалось наиболее эффективным для дальнейшей реализации приложения или устройства для распознавания речи. Превосходство вышеописанного метода над остальными заключается в высоком быстродействии алгоритма, а также минимальном использовании функций, что также уменьшает вычислительную нагрузку на устройство дискретизации. Результаты исследования позволят в дальнейшем разработать устройство или приложение для распознавания речи.

Направлениями дальнейших исследований также является усовершенствование методов с целью повышения качества при обработке звуковых данных и снижения вероятности появления погрешностей распознавания.

Литература

  1. Коровкин, Н. В. О применимости быстрого преобразования Фурье для гармонического анализа несинусоидальных токов и напряжений / Н. В. Коровкин, С. С. Грицутенко // Извести Российской академии наук. – М.: Энергетика, 2017. - С. 77-83.-URL:https://elibrary.ru/item.asp?id=29308682
  2. Оппенгейм, А. В. Цифровая обработка сигналов / А. В. Оппенгейм, Р. В. Шафер. - URL: http://optic.cs.nstu.ru/files/Lit/Math/OpShDSP.pdf (дата обращения: 05.05.2021)
  3. Steven, G. A modified split-radix FFT with fewer arithmetic operations / G. Steven, F. Matteo // IEEE Transactions on Signal Processing: журн., 2007. - URL: https://ieeexplore.ieee.org/document/4034175 (дата обращения: 05.05.2021)
  4. Григоров, И. В. Обработка сигналов в телекоммуникационных системах с применением нелинейных унитарных преобразований: диссерт. 2013. - URL: http://tekhnosfera.com/obrabotka-signalov-v-telekommunikatsionnyh-sistemah-s-primeneniem-nelineynyh-unitarnyh-preobrazovaniy (дата обращения: 02.05.2021)